До этого мы рассматривали только одномерные распределения вероятностей на числовой прямой. Однако ничто не мешает в качестве носителя Ω выбрать пространство более высокой размерности. И снова все представляющие практический интерес распределения делятся на два класса: дискретные и непрерывные.
Дискретные многомерные распределения
Пусть, например, эксперимент состоит из двух фаз: сначала подбрасывается монетка, а затем кубик. Тогда вероятностная масса сосредоточена в точках (i,j), i=0,1, 1⩽j⩽6. Вероятность каждого исхода можно записать в виде таблицы
«Неудача»
«Успех»
121
121
121
121
121
121
121
121
121
121
121
121
Результат подбрасывания монеты моделирует бернуллиевская случайная величина ξ, а результат броска кубика — равномерно распределённая на множестве {1,2,3,4,5,6} случайная величина η. Содержимое таблицы вероятностей каждого исхода можно также представить матрицей
которая задаёт совместное распределение случайных величин ξ и η: P(ξ=i,η=j)=Pij. Пару случайных величин (ξ,η) в таком контексте называют также случайным вектором.
Вступайте в сообщество хендбука
Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.
Элементы матрицы P не обязаны совпадать; например, монета может быть несимметричной с вероятностью «успеха» p, и тогда таблица вероятностей примет вид
«Неудача»
«Успех»
61−p
6p
61−p
6p
61−p
6p
61−p
6p
61−p
6p
61−p
6p
Контрольный вопрос. Какая таблица вероятностей соответствует эксперименту, в котором результат подбрасывания монеты «портит» кубик следующим образом: на нём могут равновероятно выпасть только значения 1 или 2 в случае «неудачи» и 4, 5 или 6 в случае «успеха»?
Ответ
«Неудача»
«Успех»
41
0
41
0
0
0
0
61
0
61
0
61
В общем случае дискретное n-мерное распределение задаётся многомерным тензором из неотрицательных чисел pi1…in, суммирующихся в единицу. Такие тензоры используются для задания совместного распределения вероятностей случайного вектора (ξ1,…,ξn) из дискретных случайных величин:
P(ξ1=i1,ξ2=i2,…,ξn=in)=pi1i2…in.
Непрерывные многомерные распределения
Непрерывное распределение на плоскости задаётся плотностью p(x,y)⩾0; при этом вероятность события A⊂R2 равна
P(A)=A∬p(x,y)dxdy
при условии, что этот интеграл имеет смысл. Простейший пример — равномерное распределение на единичном квадрате [0,1]2: его плотность равна I[0,1]2(x,y), и
P(A)=A∬dxdy=∣A∣дляA⊂[0,1]2.
Именно так на единичном квадрате формально определяется геометрическая вероятность.
Плотность непрерывного распределения в Rn является неотрицательной функцией вида p(x1,…,xn) со свойством
∫Rnp(x1,…,xn)dx1…dxn=1.
Говорят, что случайный вектор ξ=(ξ1,…,ξn) имеет совместную плотностьpξ(x1,…,xn), если
Из совместного распределения можно получить распределение в пространстве меньшей размерности путём суммирования или интегрирования по части переменных. Например, если матрица Pij задаёт совместное распределение случайных величин ξ и η, Pij=P(ξ=i,η=j), то каждый из наборов чисел
qi=j∑Pij,rj=i∑Pij,
неотрицателен и суммируется в единицу:
i∑qi=j∑rj=i,j∑Pij=1.
Таким образом, числа {qi} и {rj} задают некоторые распределения вероятностей, называемые маргинальными.
Упражнение. Найдите маргинальные распределения, если совместное распределение задано матрицей
Заметим, что в п. а) после маргинализации получились в точности распределения вероятностей компонент случайного вектора (ξ,η) из приведённого выше примера. Это следствие независимости случайных величин ξ и η.
В непрерывном случае ситуация похожая: если случайный вектор имеет совместную плотность p(x,y), то функции
q(x)=−∞∫∞p(x,y)dy,r(y)=−∞∫∞p(x,y)dx
являются плотностями маргинальных распределений.
Для n-мерных распределений можно находить маргинальные распределения, суммируя или интегрируя по любым наборам переменных с индексами 1⩽i1<i2<…<ik⩽n; в результате получится маргинальное распределение по оставшимся n−k переменным.
Независимость случайных величин
Случайные величины ξ и η называются независимыми, если совместное распределение случайного вектора (ξ,η) распадается на произведение одномерных. Точнее говоря,
дискретные случайные величины ξ и η независимы, если P(ξ=xi,η=yj)=P(ξ=xi)P(η=yj) для всех возможных xi и yj;
непрерывные случайные величины ξ и η независимы, если их совместная плотность p(x,y)=pξ(x)pη(y).
Если случайные величины ξ и η независимы, то распределение каждой из них является маргинальным распределением их совместного распределения, поскольку
i∑P(ξ=xi)P(η=yj)=P(η=yj),
j∑P(ξ=xi)P(η=yj)=P(ξ=xi),
и
−∞∫+∞pξ(x)pη(y)dx=pη(y),
−∞∫+∞pξ(x)pη(y)dy=pξ(x).
Случайные величины (ξ1,…,ξn)независимы в совокупности, если их совместное распределение (совместная плотность) распадается в произведение одномерных распределений (плотностей).
Пример. Рассмотрим n гауссовских случайных величин ξk∼N(μk,σk2) с плотностями
pξk(xk)=2πσk1e−2σk2(xk−μk)2.
Совместную плотность случайного вектора ξ=(ξ1,…,ξn) определим как произведение плотностей его компонент:
Случайный вектор ξ с такой плотностью имеет многомерное нормальное (гауссовское) распределение c независимыми в совокупности компонентами. Любое маргинальное распределение случайного вектора ξ обладает плотностью того же вида, и поэтому также является гауссовским.
Характеристики случайных векторов
Математическое ожидание случайного вектора ξ=(ξ1,…,ξn) является вектором той же размерности и вычисляется покомпонентно:
Eξ=(Eξ1,…,Eξn).
Каждая компонента случайного вектора — это обычная случайная величина, и её среднее можно вычислить стандартными методами:
Eξk=i1,…,in∑ikpi1…in в дискретном случае;
Eξk=Rn∫xkp(x1,…,xn),dx1…dxn в непрерывном случае.
Математическое ожидание перестановочно с линейным преобразованием случайного вектора: E(Cξ)=CEξ, где C — фиксированная матрица.
Вместо дисперсии у случайного вектора ξ=(ξ1,…,ξn) есть матрица ковариаций:
Vξ=cov(ξ,ξ)=E(ξ−Eξ)(ξ−Eξ)T.
Матрица ковариаций симметрична и состоит из попарных ковариаций компонент случайного вектора ξ:
cov(ξ,ξ)ij=cov(ξi,ξj).
Упражнение. Докажите, что ковариационная матрица любого случайного вектора неотрицательно определена.
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
равна diag{σ12,…,σn2}, поскольку компоненты вектора ξ независимы в совокупности и имеют нормальное распределение N(μk,σk2).
Аналогом ковариации в многомерном случае служит матрица ковариаций между случайными векторами ξ=(ξ1,…,ξn) и η=(η1,…,ηn):
cov(ξ,η)=E(ξ−Eξ)(η−Eη)T.
Матрицу ковариаций можно также вычислить по формуле
cov(ξ,η)=EξηT−Eξ(Eη)T.
Упражнение. Пусть случайный вектор η получен из случайного вектора ξ линейным преобразованием: η=Cξ. Как связаны между собой их ковариационные матрицы?
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
Распишем по определению:
cov(Cξ,Cξ)=E(Cξ−E(Cξ))(Cξ−E(Cξ))T=
=EC(ξ−Eξ)(ξ−Eξ)TCT=Ccov(ξ,ξ)CT.
Преобразования плотностей случайных векторов
Нередко приходится иметь дело не с самими случайными векторами, а с функциями от них. Но как найти плотность случайного вектора η=g(ξ), зная плотность pξ(x)?
Предположим, что g:Rn→Rn — гладкая обратимая функция. Тогда для измеримого A⊂Rn имеем
P(η∈A)=P(g(ξ)∈A)=P(ξ∈g−1(A))=g−1(A)∫pξ(x)dx
Чтобы перейти к интегралу по A, сделаем замену переменной x=g−1(z). По формуле замены координат в кратном интеграле получаем
g−1(A)∫pξ(x)dx=A∫pξ(g−1(z))∣detJ(z)∣dz,
где detJ(z) – якобиан преобразования g−1(z), т.е. определитель матрицы Якоби J(z)=∂z∂g−1(z).
Таким образом,
pη(z)=pξ(g−1(z))∣detJ(z)∣.
Упражнение. Пусть ξ – случайный вектор с плотностью pξ(x). Какова плотность случайного вектора η=μ+Cξ, где μ – постоянный вектор, а C – постоянная обратимая матрица?
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
В данном случае g(x)=μ+Cx, g−1(z)=C−1(z−μ). Матрица Якоби преобразования g−1 равна C−1. Следовательно,
pη(z)=∣det(C)∣1pξ(C−1(z−μ)).
Распределение суммы независимых случайных величин
В дискретном случае найти распределение суммы двух независимых случайных величин несложно. В самом деле,
P(ξ+η=k)=i∑P(ξ+η=k,η=i)=i∑P(ξ=k−i,η=i).
В силу независимости случайных величин ξ и η последняя сумма равна
i∑P(ξ=k−i)P(η=i).
Полученная формула называется формулой свёртки.
Пусть теперь ξ1 и ξ2 – независимые непрерывные случайные величины с плотностями pξ1(x) и pξ2(x) соответственно. Сам собой напрашивается аналог формулы свёртки с плотностями вместо вероятностей, но чтобы достаточно строго вывести его и не запутаться, мы немного схитрим. А именно, мы рассмотрим случайный вектор ξ=(ξ1,ξ2)T и его (обратимое!) преобразование
где в последнем равенстве мы воспользовались независимостью ξ1 и ξ2. Распределение случайной величины η1=ξ1+ξ2 – это маргинальное распределение, которое вычисляется следующим образом:
pη1(y)=−∞∫+∞pξ1(y−x)pξ2(x)dx.
Эта формула также называется формулой свёртки.
Примеры многомерных распределений
Рассмотрим несколько популярных распределений случайных векторов.
Мультиномиальное распределение
Биномиальное распределение Bin(n,p) моделирует n-кратное подбрасывание монеты с вероятностями «успеха» p и «неудачи» q=1−p. Мультиномиальное распределение обобщает этот эксперимент: теперь подбрасывается кубик с k⩾2 гранями, и вероятность выпадения i-й грани равна pi, i=1∑kpi=1. Обозначим через ξi количество выпадений i-й грани в серии из n бросков. Тогда случайный вектор ξ=(ξ1,…,ξk) имеет мультиномиальное распределение, при котором
При n=1 мультиномиальное распределение превращается в категориальное, известное также под названием multinoulli. Категориальное распределение моделирует случайный выбор одного из k классов с заданными вероятностями (p1,…,pk).
где x,μ∈Rn, Σ — невырожденная симметричная матрица размера n×n. Такое распределение обозначается N(μ,Σ).
Если случайный вектор ξ∼N(μ,Σ), то Eξ=μ, cov(ξ,ξ)=Σ; таким образом, параметры гауссовского распределения — это его среднее и матрица ковариаций.
Упражнение. Пусть ξ∼N(μ,Σ) и η=Aξ+b. Докажите, что η∼N(Aμ+b,AΣAT).
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
Если бы нам стало известно, что вектор η гауссовский, то мы нашли бы его параметры по стандартным формулам:
Eη=E(Aξ+b)=AEξ+b=Aμ+b,
cov(η,η)=cov(Aξ+b,Aξ+b)=Acov(ξ,ξ)AT=AΣAT.
Решим задачу честно в предположении, что матрица A квадратная и невырожденная. Для этого воспользуемся формулой плотности линейного преобразования случайного вектора:
В полученном выражении нетрудно узнать плотность гауссовского распределения N(Aμ+b,AΣAT).
Заметим, что утверждение сохраняет силу и для случая прямоугольной матрицы A размера m×n, где n — размерность случайного вектора ξ.
Важный частный случай случайного гауссовского вектора с независимыми компонентами был рассмотрен в примере из секции про независимость случайных величин. Такое распределение получается, если матрица Σ диагональна, Σ=diag{σ12,…,σn2}. Тогда detΣ=σ1…σn, Σ−1=diag{σ121,…,σn21}, и поэтому
−21(x−μ)TΣ−1(x−μ)=−21k=1∑nσk2(xk−μk)2.
Отсюда снова получаем формулу совместной плотности
откуда следует независимость в совокупности компонент вектора ξ.
Если ковариационная матрица Σ не является диагональной, то отдельные компоненты случайного вектора ξ∼N(μ,Σ) зависимы. Тем не менее, всегда найдётся линейное (и даже ортогональное) преобразование, которое превратит вектор ξ в гауссовский вектор с независимыми компонентами. Для этого достаточно найти ортогональную матрицу Q со свойством
QΣQT=diag{σ12,…,σn2},
и далее воспользоваться формулой плотности линейного преобразования гауссовского вектора.
По тем же соображениям облако точек, сгенерированных из распределения N(μ,Σ), будет напоминать эллипсоид с полуосями, пропорциональными вектору (σ12,…,σn2). Линии уровня плотности p(x) задаются уравнениями вида p(x)=C, а такое равенство эквивалентно квадратичной форме
(x−μ)TΣ−1(x−μ)=C1,
где C и C1 – некоторые константы. С помощью описанной выше ортогональной замены эта квадратичная форма может быть приведена к главным осям:
zTΛ−1z=C2,Λ=diag{σ12,…,σn2};
в координатах это выглядит как
l=1∑nσk2zk2=C2.
Мы получили практически каноническое уравнение n-мерного эллипсоида. В R2 это будут эллипсы, сплюснутые тем сильнее, чем дальше от единицы отношение κ=σ2σ1 собственных значений матрицы Σ.
Нормальным будет и всякое маргинальное распределение многомерного гауссовского вектора.
Упражнение. Пусть случайный вектор ξ=(ξ1,ξ2) имеет гауссовское распределение с параметрами
μ=(μ1μ2),Σ=(Σ11Σ12TΣ12Σ22),
где ξ1,μ1∈Rk, ξ2,μ2∈Rn−k, Σ11∈Matk×k, Σ12∈Matk×(n−k), Σ22∈Mat(n−k)×(n−k).
Докажите, что случайный вектор ξ1, полученный маргинализацией по компонентам вектора ξ2, является гауссовским с параметрами mu1 и Σ11.
Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)
Существует прямое и довольно утомительное решение с многочисленными матричными манипуляциями. Мы поступим хитрее: рассмотрим маргинализацию как линейное преобразование
ξ1=Aξ,гдеA=(Ik0k×(n−k))∈Matk×n,
и воспользуемся результатом предыдущего упражнения. Имеем Aμ=Ikμ1=μ1, AΣAT=IkΣ11IkT=Σ11, и поэтому ξ1∼N(μ1,Σ11).
Распределение Дирихле
Распределение Дирихле сосредоточено на K-мерном симплексе
{(x1,…,xK):x1+…+xK=1,xi⩾0}.
Плотность распределения Дирихле Dir(α) равна
p(x1,…,xK)=B(α)1i=1∏Kxiαi−1,
где α=(α1,…,αK) – вектор положительных параметров, а B(α)=Γ(∑iαi)∏iΓ(αi) – многомерная бета-функция. Если ξ∼Dir(α),
то
Иллюстрация распределения Дирихле с помощью схемы Пойя
Пусть у нас есть K категорий и на них задано вероятностное распределение
q(1)=α0α=(α0α1,…,α0αK),
где α0=i=1∑Kαi. Это корректное распределение вероятностей, так как его компоненты неотрицательны и в сумме дают 1. Будем производить следующий процесс:
В первый момент генерируем одну из категорий с помощью распределения q(1); допустим, выпала i1-я. Обновляем вероятностное распределение на категориях, прибавив единицу к i1-й компоненте вектора α; получаем вектор α(2).
На n-м шаге генерируем одну из категорий с помощью распределения q(n)=i∑αi(n)α(n). Допустим, выпала in-я. Обновляем вероятностное распределение на категориях, прибавив единицу к in-й компоненте вектора α(n); получаем вектор α(n+1).
Можно доказать, что вектор n→∞limq(n) подчиняется распределению Дирихле Dir(α).
Чтобы стало чуть понятнее, проследим, что будет при различных α.
Если α=(10,10,10), то прибавление единицы будет не так сильно смещать вероятности, и дальше мы будем продолжать генерировать категорию из распределения, близкого к равномерному. Скорее всего, в пределе мы будем получать что-то, близкое к (31,31,31).
Если α=(1,1,20), то почти наверняка мы будем генерить третью категорию, причём со всё большей вероятностью (ведь при этом мы будем увеличивать α3(n)), то есть в пределе будет (почти 0, почти 0, почти 1).
Если α=(0.1,0.1,0.1), то та категория, которую мы сгенерировали на первом шаге, сразу вырвется вперёд и скорее всего будет доминировать в дальнейшем. Таким образом, нам следует ожидать в пределе векторов, в которых одна из компонент почти 1, а остальные почти 0. Важным отличием от предыдущего варианта является то, что здесь почти 1 может быть в любой компоненте.
Если α=(1,1,1), то соответствующее распределение Дирихле будет равномерным.
Также вам может оказаться полезна визуализация плотности этого распределения при разных α: